GPT-4o mini: advancing cost-efficient intelligence
https://scrapbox.io/files/6699cc2d73a900001ce6aaa1.png
概要
OpenAIは、インテリジェンスをできる限り広く利用可能にすることに取り組んでいます。本日、私たちは最もコスト効率の高い小型モデル、GPT-4o miniを発表します。GPT-4o miniは、インテリジェンスをはるかに手頃な価格で提供することで、AIを使用して構築されるアプリケーションの範囲を大幅に拡大すると期待しています。
GPT-4o miniはMMLUで82%のスコアを獲得し、現在LMSYSリーダーボード(新しいウィンドウで開く)のチャット選好度でGPT-4を上回っています。価格は入力トークン100万個あたり15セント、出力トークン100万個あたり60セントで、これまでのフロンティアモデルと比べて1桁以上手頃になり、GPT-3.5 Turboよりも60%以上安価です。 GPT-4o miniは、低コストと低レイテンシーにより、複数のモデル呼び出しを連鎖または並列化するアプリケーション(例:複数のAPIを呼び出す)、モデルに大量のコンテキストを渡す(例:完全なコードベースや会話履歴)、または顧客とリアルタイムのテキスト応答で迅速にやり取りする(例:カスタマーサポートチャットボット)など、幅広いタスクを可能にします。
現在、GPT-4o miniはAPIでテキストとビジョンをサポートしており、将来的にはテキスト、画像、ビデオ、音声の入力と出力をサポートする予定です。このモデルは128Kトークンのコンテキストウィンドウを持ち、リクエストごとに最大16Kの出力トークンをサポートし、2023年10月までの知識を持っています。GPT-4oと共有される改良されたトークナイザーのおかげで、非英語テキストの処理がさらにコスト効率的になりました。 優れたテキストインテリジェンスとマルチモーダル推論を備えた小型モデル
GPT-4o miniは、テキストインテリジェンスとマルチモーダル推論の両方において、GPT-3.5 Turboや他の小型モデルを学術的ベンチマークで上回り、GPT-4oと同じ範囲の言語をサポートしています。また、開発者がデータを取得したり外部システムでアクションを起こしたりするアプリケーションを構築できるようにする関数呼び出しでも強力なパフォーマンスを示し、GPT-3.5 Turboと比較して長いコンテキストでのパフォーマンスも向上しています。
GPT-4o miniはいくつかの主要なベンチマークで評価されました。
https://scrapbox.io/files/6699cf76030546001c8b34e6.png
推論タスク
GPT-4o miniは、テキストとビジョンの両方を含む推論タスクで他の小型モデルよりも優れており、テキストインテリジェンスと推論のベンチマークであるMMLUで82.0%のスコアを獲得しました。 これはGemini Flashの77.9%やClaude Haikuの73.8%と比較してのことです。
数学とコーディングの能力
GPT-4o miniは、数学的推論とコーディングタスクで優れており、市場の以前の小型モデルを上回るパフォーマンスを示しています。
数学的推論を測定するMGSMでは、GPT-4o miniは87.0%のスコアを獲得し、Gemini Flashの75.5%やClaude Haikuの71.7%と比較して高いスコアを示しました。 コーディングパフォーマンスを測定するHumanEvalでは、GPT-4o miniは87.2%のスコアを獲得し、Gemini Flashの71.5%やClaude Haikuの75.9%と比較して高いスコアを示しました。 マルチモーダル推論
GPT-4o miniは、マルチモーダル推論評価であるMMMUでも強力なパフォーマンスを示し、59.4%のスコアを獲得しました。 これはGemini Flashの56.1%やClaude Haikuの50.2%と比較してのことです。
モデル開発プロセスの一環として、私たちは信頼できるパートナーと協力して、GPT-4o miniのユースケースと制限をより深く理解しました。RampやSuperhumanなどの企業と提携し、レシートファイルから構造化データを抽出したり、スレッド履歴を提供して高品質のメール応答を生成したりするタスクで、GPT-4o miniがGPT-3.5 Turboよりも大幅に優れたパフォーマンスを示すことがわかりました。
組み込みの安全対策
安全性は開発プロセスの最初から私たちのモデルに組み込まれており、開発の各段階で強化されています。事前トレーニングでは、ヘイトスピーチ、アダルトコンテンツ、主に個人情報を集約するサイト、スパムなど、モデルに学習させたくない情報や出力させたくない情報をフィルタリング(新しいウィンドウで開く)しています。トレーニング後には、人間からのフィードバックによる強化学習(RLHF)などの技術を使用してモデルの行動を私たちのポリシーに合わせ、モデルの応答の正確性と信頼性を向上させています。
GPT-4o miniには、GPT-4oと同じ安全対策が組み込まれており、私たちは準備フレームワークに従い、自主的なコミットメントに沿って、自動評価と人間による評価の両方を用いて慎重に評価しました。社会心理学や誤情報などの分野の70人以上の外部専門家がGPT-4oをテストし、潜在的なリスクを特定しました。これらのリスクに対処し、その詳細を今後発表予定のGPT-4oシステムカードと準備スコアカードで共有する予定です。これらの専門家による評価から得られた洞察は、GPT-4oとGPT-4o miniの両方の安全性向上に役立ちました。
これらの学びを基に、私たちのチームは研究から得られた新しい技術を使用してGPT-4o miniの安全性をさらに向上させました。APIのGPT-4o miniは、指示階層メソッドを適用した最初のモデルであり、これによりジェイルブレイク、プロンプトインジェクション、システムプロンプト抽出に対するモデルの抵抗力が向上します。
hiroya_iizuka.icon ついにきた!
これにより、モデルの応答がより信頼性が高くなり、大規模なアプリケーションでより安全に使用できるようになります。
私たちは、GPT-4o miniがどのように使用されているかを継続的に監視し、新しいリスクを特定しながらモデルの安全性を向上させていきます。
利用可能性と価格設定
GPT-4o miniは現在、Assistants API、Chat Completions API、Batch APIでテキストとビジョンモデルとして利用可能です。開発者は入力トークン100万個あたり15セント、出力トークン100万個あたり60セントを支払います(標準的な本の約2500ページに相当)。GPT-4o miniのファインチューニングを数日以内に開始する予定です。
ChatGPTでは、無料、Plusおよびチームユーザーは本日からGPT-3.5の代わりにGPT-4o miniにアクセスできるようになります。エンタープライズユーザーも来週からアクセスできるようになり、AIの利点をすべての人に提供するという私たちのミッションに沿った形となります。
今後の展望
過去数年間、私たちはAIインテリジェンスの著しい進歩とコストの大幅な削減を目の当たりにしてきました。例えば、GPT-4o miniのトークンあたりのコストは、2022年に導入された能力の低いモデルであるtext-davinci-003と比較して99%削減されました。私たちは、モデルの能力を向上させながら、コストを下げ続けるこの軌道を維持することに取り組んでいます。
私たちは、モデルがあらゆるアプリやウェブサイトにシームレスに統合される未来を描いています。GPT-4o miniは、開発者がより効率的かつ手頃な価格で強力なAIアプリケーションを構築し、スケールアップするための道を切り開いています。AIの未来はより身近になり、信頼性が高まり、日々のデジタル体験に組み込まれていきます。私たちは引き続きこの道を先導することに興奮しています。